BLAST

На главную страницу третьего семестра

1. Создание индексных файлов для работы с локальными версиями программ семейства BLAST

Через Putty получила доступ к программе formatdb, которая имеет следующие нужные нам параметры:

1. -i имя файла, подаваемого программе на вход
2. -p тип последовательности, содердащейся в этом файле. T - белковая, N - нуклеотидная.
3. -n базовое имя получаемых на выходе файлов.

Программе была задана следующая строка:

formatdb -i /home/export/samba/public/tmp/vc_genome.fasta -p F -n vc

На выходе получены следующие 3 файла, сохраненные в открытой на тот момент папке (BLAST):

vc.nhr, vc.nin и vc.nsq.

2. Поиск в неаннотированном геноме генов, кодирующих белки, похожие на заданный

Для данной операции была выбрана программа tBLASTn, которая предназначена для поиска гомологов белка в неаннотированных нуклеотидных последовательностях.

Поиск гомологов CUER_ECOLI Геном Vibrio cholerae *Геном Pseudomonas aeruginosa *Геном Pasteurella multocida

Характеристика лучшей находки:

E-value находки 7e-38 9e-31 1e-11

координаты выравнивания(-ий)
в записи генома 2348..2737 4866..5261 complement(3557..3255)

AC соответствующей записи EMBL AE004179 AE004891 AE006230

Координаты CDS в записи EMBL (если они есть) 2348..2767 - complement(9861..10259)

AC UniProt в записи EMBL (если есть) Q9KTC8 - Q9CJQ3

Число находок с Е-value<0,01
5 6 1

E-value лучшей находки(II)
2e-37 2e-30 5e-11

Число находок с Е-value<0,01 (II)
4 6 1

При одновременном поиске в 3 геномах лучшая находка оказалась в геноме Vibrio cholerae.

*Примечание. Запись AE004891 для Pseudomonas aeruginosa была заменена на AE004091 12 июля 2006 года. Но и в этой записи нет информации о координатах CDS.

3. Аналогичный поиск сразу в нескольких геномах

Создала в директории BLAST индексные файлы BLAST для поиска по всем трем геномам сразу. Для этого в Putty была выполнена программа:

1) Заведена переменная "genpath" выполнением команды:
genpath=/home/export/samba/public/tmp

2)Заведена переменная "genomes" выполнением команды:
genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta"

3) Созданы индексные файлы:
formatdb -i "$genomes" -n 3g -p F

С помощью программы tBLASTn проведен поиск по трем геномам. Результаты нового поиска отражены в последних 2 строках таблицы предыдущего задания.

Так как по сути были произведены одинаковые поиски, то и разительно отличающихся результатов нет. Но во втором случае (поиск сразу по всем 3 геномам) количество находок с заданным e-value уменьшилось (в случае Vibrio cholerae). Главное различие между результатами двух поисков (по 3 отдельным геномам и в совокупности) - повышение e-value в последнем случае. Это можно объяснить природой e-value. E-value есть число выравниваний с тем же весом, что данное, сделанных при поиске в базе данных, содержащей случайные последовательности. Эта самая база данных содержит те же аминокислотные остатки, что и та, в которой мы ведем поиск, но аминокислоты в ней выстроены в случайном порядке. Соответственно, размер базы данных прямо пропорционален количеству возможных комбинаций выравниваний. То есть в результате - чем больше БД, тем больше возможное e-value. В нашем случае в роли БД служат один (в первом случае) или три (во втором) генома. Понятно, что при поиске сразу по всем 3 геномам, e-value повышается. А количество находок, "влезающих" в границы заданного e-value может и уменьшится.

4. Поиск гомологов с помощью программы BLASTN

Скопировала в свою рабочую директорию BLAST fasta-файл с гeном (AF318185) белка CUER_ECOLI. Нашла гомологов этого гена в трёх геномах программой BLASTN. Результаты поиска описаны ниже в протоколе:

Лучшей находкой оказался ген из последовательности Vibrio cholerae.

E-value лучшей находки: 0.016
Ниже приведено соответствующее выравнивание и аннотация соответствующего фрагмента генома:

>embl|AE004179|AE004179 Vibrio cholerae O1 biovar eltor str. N16961
            chromosome I, section 87 of 251 of the complete
            chromosome.
          Length = 10622

 Score = 38.2 bits (19), Expect = 0.016
 Identities = 25/27 (92%)
 Strand = Plus / Plus

                                       
Query: 103  ggttatcgcacctacacgcagcagcat 129
            ||||||||||| ||||| |||||||||
Sbjct: 2450 ggttatcgcacttacactcagcagcat 2476